#!/bin/bash

./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 3025 -n 64 -k 363 --alpha 1.0 --a_type f32_r --lda 3025 --b_type f32_r --ldb 363 --beta 0.0 --c_type f32_r --ldc 3025 --d_type f32_r --ldd 3025 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 729 -n 192 -k 1600 --alpha 1.0 --a_type f32_r --lda 729 --b_type f32_r --ldb 1600 --beta 0.0 --c_type f32_r --ldc 729 --d_type f32_r --ldd 729 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 12544 -n 64 -k 147 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 147 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 128 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 160 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 192 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 256 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 32 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 384 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1568 -n 48 -k 832 --alpha 1.0 --a_type f32_r --lda 1568 --b_type f32_r --ldb 832 --beta 0.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 196 -n 128 -k 800 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 196 -n 48 -k 400 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 400 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 196 -n 64 -k 600 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 600 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 196 -n 64 -k 800 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 49 -n 128 -k 1200 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 1200 --beta 0.0 --c_type f32_r --ldc 49 --d_type f32_r --ldd 49 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 49 -n 128 -k 800 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 49 --d_type f32_r --ldd 49 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 112 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 128 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 128 -k 528 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 528 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 144 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 16 -k 480 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 480 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 160 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 160 -k 528 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 528 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 192 -k 480 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 480 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 24 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 256 -k 528 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 528 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 32 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 32 -k 528 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 528 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 64 -k 480 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 480 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 64 -k 512 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 6272 -n 96 -k 480 --alpha 1.0 --a_type f32_r --lda 6272 --b_type f32_r --ldb 480 --beta 0.0 --c_type f32_r --ldc 6272 --d_type f32_r --ldd 6272 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 784 -n 32 -k 400 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 400 --beta 0.0 --c_type f32_r --ldc 784 --d_type f32_r --ldd 784 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 784 -n 96 -k 800 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 784 --d_type f32_r --ldd 784 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1225 -n 64 -k 1200 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1200 --beta 0.0 --c_type f32_r --ldc 1225 --d_type f32_r --ldd 1225 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 192 -k 1280 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 1280 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 192 -k 2048 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 2048 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 320 -k 1280 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 1280 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 320 -k 2048 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 2048 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 384 -k 1280 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 1280 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 384 -k 2048 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 2048 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 448 -k 1280 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 1280 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 448 -k 2048 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 2048 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 21609 -n 32 -k 288 --alpha 1.0 --a_type f32_r --lda 21609 --b_type f32_r --ldb 288 --beta 0.0 --c_type f32_r --ldc 21609 --d_type f32_r --ldd 21609 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 22201 -n 32 -k 27 --alpha 1.0 --a_type f32_r --lda 22201 --b_type f32_r --ldb 27 --beta 0.0 --c_type f32_r --ldc 22201 --d_type f32_r --ldd 22201 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 128 -k 896 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 896 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 160 -k 1120 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1120 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 192 -k 1120 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1120 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 192 -k 1344 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1344 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 192 -k 896 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 896 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 384 -k 2592 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 2592 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 96 -k 864 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 864 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 5041 -n 192 -k 720 --alpha 1.0 --a_type f32_r --lda 5041 --b_type f32_r --ldb 720 --beta 0.0 --c_type f32_r --ldc 5041 --d_type f32_r --ldd 5041 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 192 -k 1728 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1728 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 320 -k 1728 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1728 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 384 -k 1152 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1152 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 1225 -n 192 -k 1728 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1728 --beta 0.0 --c_type f32_r --ldc 1225 --d_type f32_r --ldd 1225 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 256 -k 1536 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 1536 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 2048 -n 384 -k 1536 --alpha 1.0 --a_type f32_r --lda 2048 --b_type f32_r --ldb 1536 --beta 0.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 224 -k 1344 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1344 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 224 -k 1568 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1568 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 256 -k 1568 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1568 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 256 -k 1792 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1792 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 256 -k 2016 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 2016 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 320 -k 1792 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1792 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 289 -n 384 -k 3456 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 3456 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 5041 -n 96 -k 576 --alpha 1.0 --a_type f32_r --lda 5041 --b_type f32_r --ldb 576 --beta 0.0 --c_type f32_r --ldc 5041 --d_type f32_r --ldd 5041 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 5329 -n 64 -k 448 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 448 --beta 0.0 --c_type f32_r --ldc 5329 --d_type f32_r --ldd 5329 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 5329 -n 96 -k 576 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 576 --beta 0.0 --c_type f32_r --ldc 5329 --d_type f32_r --ldd 5329 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 256 -k 1152 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1152 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 256 -k 1536 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1536 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 320 -k 2880 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 2880 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 448 -k 1152 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1152 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 64 -n 512 -k 1344 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1344 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 12544 -n 1024 -k 256 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 256 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 12544 -n 1024 -k 512 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 12544 -n 256 -k 1024 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 1024 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 12544 -n 256 -k 512 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 3136 -n 2048 -k 1024 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 1024 --beta 0.0 --c_type f32_r --ldc 3136 --d_type f32_r --ldd 3136 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 3136 -n 2048 -k 512 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 3136 --d_type f32_r --ldd 3136 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 3136 -n 512 -k 1024 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 1024 --beta 0.0 --c_type f32_r --ldc 3136 --d_type f32_r --ldd 3136 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 3136 -n 512 -k 2048 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 2048 --beta 0.0 --c_type f32_r --ldc 3136 --d_type f32_r --ldd 3136 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 50176 -n 128 -k 256 --alpha 1.0 --a_type f32_r --lda 50176 --b_type f32_r --ldb 256 --beta 0.0 --c_type f32_r --ldc 50176 --d_type f32_r --ldd 50176 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB N -m 50176 -n 512 -k 256 --alpha 1.0 --a_type f32_r --lda 50176 --b_type f32_r --ldb 256 --beta 0.0 --c_type f32_r --ldc 50176 --d_type f32_r --ldd 50176 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 729 -n 1600 -k 192 --alpha 1.0 --a_type f32_r --lda 729 --b_type f32_r --ldb 1600 --beta 0.0 --c_type f32_r --ldc 729 --d_type f32_r --ldd 729 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 196 -n 400 -k 48 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 400 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 196 -n 600 -k 64 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 600 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 196 -n 800 -k 128 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 196 -n 800 -k 64 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 196 --d_type f32_r --ldd 196 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 49 -n 1200 -k 128 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 1200 --beta 0.0 --c_type f32_r --ldc 49 --d_type f32_r --ldd 49 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 49 -n 800 -k 128 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 49 --d_type f32_r --ldd 49 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 784 -n 400 -k 32 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 400 --beta 0.0 --c_type f32_r --ldc 784 --d_type f32_r --ldd 784 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 784 -n 800 -k 96 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 800 --beta 0.0 --c_type f32_r --ldc 784 --d_type f32_r --ldd 784 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 1225 -n 1200 -k 64 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1200 --beta 0.0 --c_type f32_r --ldc 1225 --d_type f32_r --ldd 1225 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 21609 -n 288 -k 32 --alpha 1.0 --a_type f32_r --lda 21609 --b_type f32_r --ldb 288 --beta 0.0 --c_type f32_r --ldc 21609 --d_type f32_r --ldd 21609 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1120 -k 160 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1120 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1120 -k 192 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1120 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1344 -k 192 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1344 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 2592 -k 384 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 2592 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 864 -k 96 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 864 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 896 -k 128 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 896 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 896 -k 192 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 896 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 5041 -n 720 -k 192 --alpha 1.0 --a_type f32_r --lda 5041 --b_type f32_r --ldb 720 --beta 0.0 --c_type f32_r --ldc 5041 --d_type f32_r --ldd 5041 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1152 -k 384 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1152 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1728 -k 192 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1728 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1728 -k 320 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1728 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 1225 -n 1728 -k 192 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1728 --beta 0.0 --c_type f32_r --ldc 1225 --d_type f32_r --ldd 1225 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1344 -k 224 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1344 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1568 -k 224 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1568 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1568 -k 256 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1568 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1792 -k 256 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1792 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 1792 -k 320 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 1792 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 2016 -k 256 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 2016 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 289 -n 3456 -k 384 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 3456 --beta 0.0 --c_type f32_r --ldc 289 --d_type f32_r --ldd 289 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 5041 -n 576 -k 96 --alpha 1.0 --a_type f32_r --lda 5041 --b_type f32_r --ldb 576 --beta 0.0 --c_type f32_r --ldc 5041 --d_type f32_r --ldd 5041 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 5329 -n 448 -k 64 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 448 --beta 0.0 --c_type f32_r --ldc 5329 --d_type f32_r --ldd 5329 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 5329 -n 576 -k 96 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 576 --beta 0.0 --c_type f32_r --ldc 5329 --d_type f32_r --ldd 5329 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1152 -k 256 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1152 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1152 -k 448 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1152 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1344 -k 512 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1344 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 1536 -k 256 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 1536 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 64 -n 2880 -k 320 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 2880 --beta 0.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 12544 -n 512 -k 1024 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 12544 -n 512 -k 256 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 512 --beta 0.0 --c_type f32_r --ldc 12544 --d_type f32_r --ldd 12544 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 3136 -n 1024 -k 2048 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 1024 --beta 0.0 --c_type f32_r --ldc 3136 --d_type f32_r --ldd 3136 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 3136 -n 1024 -k 512 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 1024 --beta 0.0 --c_type f32_r --ldc 3136 --d_type f32_r --ldd 3136 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 50176 -n 256 -k 128 --alpha 1.0 --a_type f32_r --lda 50176 --b_type f32_r --ldb 256 --beta 0.0 --c_type f32_r --ldc 50176 --d_type f32_r --ldd 50176 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA N --transposeB T -m 50176 -n 256 -k 512 --alpha 1.0 --a_type f32_r --lda 50176 --b_type f32_r --ldb 256 --beta 0.0 --c_type f32_r --ldc 50176 --d_type f32_r --ldd 50176 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 3136 -n 64 -k 64 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 200704 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 200704 --d_type f32_r --ldd 3136 --stride_d 200704 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 128 -k 256 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 200704 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 100352 --d_type f32_r --ldd 784 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 16 -k 192 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 150528 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 12544 --d_type f32_r --ldd 784 --stride_d 12544 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 32 -k 192 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 150528 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 25088 --d_type f32_r --ldd 784 --stride_d 25088 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 32 -k 256 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 200704 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 25088 --d_type f32_r --ldd 784 --stride_d 25088 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 64 -k 192 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 150528 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 50176 --d_type f32_r --ldd 784 --stride_d 50176 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 64 -k 256 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 200704 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 50176 --d_type f32_r --ldd 784 --stride_d 50176 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 96 -k 192 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 150528 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 75264 --d_type f32_r --ldd 784 --stride_d 75264 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 32 -k 192 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 235200 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 39200 --d_type f32_r --ldd 1225 --stride_d 39200 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 48 -k 192 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 235200 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 58800 --d_type f32_r --ldd 1225 --stride_d 58800 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 48 -k 256 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 313600 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 58800 --d_type f32_r --ldd 1225 --stride_d 58800 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 48 -k 288 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 352800 --b_type f32_r --ldb 288 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 58800 --d_type f32_r --ldd 1225 --stride_d 58800 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 64 -k 192 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 235200 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 78400 --d_type f32_r --ldd 1225 --stride_d 78400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 64 -k 256 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 313600 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 78400 --d_type f32_r --ldd 1225 --stride_d 78400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 64 -k 288 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 352800 --b_type f32_r --ldb 288 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 78400 --d_type f32_r --ldd 1225 --stride_d 78400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 128 -k 768 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 221952 --b_type f32_r --ldb 768 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 36992 --d_type f32_r --ldd 289 --stride_d 36992 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 160 -k 768 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 221952 --b_type f32_r --ldb 768 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 46240 --d_type f32_r --ldd 289 --stride_d 46240 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 192 -k 768 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 221952 --b_type f32_r --ldb 768 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 55488 --d_type f32_r --ldd 289 --stride_d 55488 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 5329 -n 80 -k 64 --alpha 1.0 --a_type f32_r --lda 5329 --stride_a 341056 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 5329 --stride_c 426320 --d_type f32_r --ldd 5329 --stride_d 426320 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 192 -k 384 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 470400 --b_type f32_r --ldb 384 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 235200 --d_type f32_r --ldd 1225 --stride_d 235200 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 64 -k 384 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 470400 --b_type f32_r --ldb 384 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 78400 --d_type f32_r --ldd 1225 --stride_d 78400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 1225 -n 96 -k 384 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 470400 --b_type f32_r --ldb 384 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 117600 --d_type f32_r --ldd 1225 --stride_d 117600 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 128 -k 1024 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 295936 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 36992 --d_type f32_r --ldd 289 --stride_d 36992 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 192 -k 1024 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 295936 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 55488 --d_type f32_r --ldd 289 --stride_d 55488 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 256 -k 1024 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 295936 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 73984 --d_type f32_r --ldd 289 --stride_d 73984 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 289 -n 384 -k 1024 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 295936 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 110976 --d_type f32_r --ldd 289 --stride_d 110976 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 5329 -n 64 -k 160 --alpha 1.0 --a_type f32_r --lda 5329 --stride_a 852640 --b_type f32_r --ldb 160 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 5329 --stride_c 341056 --d_type f32_r --ldd 5329 --stride_d 341056 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 3136 -n 256 -k 64 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 200704 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 802816 --d_type f32_r --ldd 3136 --stride_d 802816 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 3136 -n 64 -k 256 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 802816 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 200704 --d_type f32_r --ldd 3136 --stride_d 200704 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 3136 -n 64 -k 64 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 200704 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 200704 --d_type f32_r --ldd 3136 --stride_d 200704 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 128 -k 512 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 401408 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 100352 --d_type f32_r --ldd 784 --stride_d 100352 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB N -m 784 -n 512 -k 128 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 100352 --b_type f32_r --ldb 128 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 401408 --d_type f32_r --ldd 784 --stride_d 401408 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 480 -k 16 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 3136 --b_type f32_r --ldb 480 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 94080 --d_type f32_r --ldd 196 --stride_d 94080 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 480 -k 192 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 37632 --b_type f32_r --ldb 480 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 94080 --d_type f32_r --ldd 196 --stride_d 94080 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 480 -k 64 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 12544 --b_type f32_r --ldb 480 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 94080 --d_type f32_r --ldd 196 --stride_d 94080 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 480 -k 96 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 18816 --b_type f32_r --ldb 480 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 94080 --d_type f32_r --ldd 196 --stride_d 94080 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 112 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 21952 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 128 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 25088 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 144 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 28224 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 160 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 31360 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 24 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 4704 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 32 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 6272 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 512 -k 64 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 12544 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 100352 --d_type f32_r --ldd 196 --stride_d 100352 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 528 -k 128 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 25088 --b_type f32_r --ldb 528 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 103488 --d_type f32_r --ldd 196 --stride_d 103488 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 528 -k 160 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 31360 --b_type f32_r --ldb 528 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 103488 --d_type f32_r --ldd 196 --stride_d 103488 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 528 -k 256 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 50176 --b_type f32_r --ldb 528 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 103488 --d_type f32_r --ldd 196 --stride_d 103488 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 528 -k 32 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 6272 --b_type f32_r --ldb 528 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 103488 --d_type f32_r --ldd 196 --stride_d 103488 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 3136 -n 64 -k 64 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 200704 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 200704 --d_type f32_r --ldd 3136 --stride_d 200704 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 128 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 6272 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 160 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 7840 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 192 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 9408 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 256 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 12544 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 32 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 1568 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 384 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 18816 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 832 -k 48 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 2352 --b_type f32_r --ldb 832 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 40768 --d_type f32_r --ldd 49 --stride_d 40768 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 192 -k 16 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 12544 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 150528 --d_type f32_r --ldd 784 --stride_d 150528 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 192 -k 32 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 25088 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 150528 --d_type f32_r --ldd 784 --stride_d 150528 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 192 -k 64 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 50176 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 150528 --d_type f32_r --ldd 784 --stride_d 150528 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 192 -k 96 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 75264 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 150528 --d_type f32_r --ldd 784 --stride_d 150528 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 256 -k 128 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 100352 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 200704 --d_type f32_r --ldd 784 --stride_d 200704 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 256 -k 32 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 25088 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 200704 --d_type f32_r --ldd 784 --stride_d 200704 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 256 -k 64 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 50176 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 200704 --d_type f32_r --ldd 784 --stride_d 200704 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 192 -k 32 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 39200 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 235200 --d_type f32_r --ldd 1225 --stride_d 235200 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 192 -k 48 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 58800 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 235200 --d_type f32_r --ldd 1225 --stride_d 235200 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 192 -k 64 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 78400 --b_type f32_r --ldb 192 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 235200 --d_type f32_r --ldd 1225 --stride_d 235200 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 256 -k 48 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 58800 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 313600 --d_type f32_r --ldd 1225 --stride_d 313600 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 256 -k 64 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 78400 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 313600 --d_type f32_r --ldd 1225 --stride_d 313600 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 288 -k 48 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 58800 --b_type f32_r --ldb 288 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 352800 --d_type f32_r --ldd 1225 --stride_d 352800 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 288 -k 64 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 78400 --b_type f32_r --ldb 288 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 352800 --d_type f32_r --ldd 1225 --stride_d 352800 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 768 -k 128 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 36992 --b_type f32_r --ldb 768 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 221952 --d_type f32_r --ldd 289 --stride_d 221952 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 768 -k 160 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 46240 --b_type f32_r --ldb 768 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 221952 --d_type f32_r --ldd 289 --stride_d 221952 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 768 -k 192 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 55488 --b_type f32_r --ldb 768 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 221952 --d_type f32_r --ldd 289 --stride_d 221952 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 5329 -n 64 -k 80 --alpha 1.0 --a_type f32_r --lda 5329 --stride_a 426320 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 5329 --stride_c 341056 --d_type f32_r --ldd 5329 --stride_d 341056 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 1280 -k 192 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 12288 --b_type f32_r --ldb 1280 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 81920 --d_type f32_r --ldd 64 --stride_d 81920 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 1280 -k 320 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 20480 --b_type f32_r --ldb 1280 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 81920 --d_type f32_r --ldd 64 --stride_d 81920 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 1280 -k 384 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 24576 --b_type f32_r --ldb 1280 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 81920 --d_type f32_r --ldd 64 --stride_d 81920 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 1280 -k 448 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 28672 --b_type f32_r --ldb 1280 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 81920 --d_type f32_r --ldd 64 --stride_d 81920 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 2048 -k 192 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 12288 --b_type f32_r --ldb 2048 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 131072 --d_type f32_r --ldd 64 --stride_d 131072 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 2048 -k 320 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 20480 --b_type f32_r --ldb 2048 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 131072 --d_type f32_r --ldd 64 --stride_d 131072 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 2048 -k 384 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 24576 --b_type f32_r --ldb 2048 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 131072 --d_type f32_r --ldd 64 --stride_d 131072 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 2048 -k 448 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 28672 --b_type f32_r --ldb 2048 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 131072 --d_type f32_r --ldd 64 --stride_d 131072 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 384 -k 192 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 235200 --b_type f32_r --ldb 384 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 470400 --d_type f32_r --ldd 1225 --stride_d 470400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 384 -k 64 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 78400 --b_type f32_r --ldb 384 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 470400 --d_type f32_r --ldd 1225 --stride_d 470400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 1225 -n 384 -k 96 --alpha 1.0 --a_type f32_r --lda 1225 --stride_a 117600 --b_type f32_r --ldb 384 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 1225 --stride_c 470400 --d_type f32_r --ldd 1225 --stride_d 470400 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 1024 -k 128 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 36992 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 295936 --d_type f32_r --ldd 289 --stride_d 295936 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 1024 -k 192 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 55488 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 295936 --d_type f32_r --ldd 289 --stride_d 295936 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 1024 -k 256 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 73984 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 295936 --d_type f32_r --ldd 289 --stride_d 295936 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 289 -n 1024 -k 384 --alpha 1.0 --a_type f32_r --lda 289 --stride_a 110976 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 289 --stride_c 295936 --d_type f32_r --ldd 289 --stride_d 295936 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 5329 -n 160 -k 64 --alpha 1.0 --a_type f32_r --lda 5329 --stride_a 341056 --b_type f32_r --ldb 160 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 5329 --stride_c 852640 --d_type f32_r --ldd 5329 --stride_d 852640 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 1536 -k 256 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 16384 --b_type f32_r --ldb 1536 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 98304 --d_type f32_r --ldd 64 --stride_d 98304 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 64 -n 1536 -k 384 --alpha 1.0 --a_type f32_r --lda 64 --stride_a 24576 --b_type f32_r --ldb 1536 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 98304 --d_type f32_r --ldd 64 --stride_d 98304 --batch 32 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 1024 -k 256 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 50176 --b_type f32_r --ldb 1024 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 200704 --d_type f32_r --ldd 196 --stride_d 200704 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 196 -n 256 -k 1024 --alpha 1.0 --a_type f32_r --lda 196 --stride_a 200704 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 196 --stride_c 50176 --d_type f32_r --ldd 196 --stride_d 50176 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 3136 -n 256 -k 64 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 200704 --b_type f32_r --ldb 256 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 802816 --d_type f32_r --ldd 3136 --stride_d 802816 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 3136 -n 64 -k 256 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 802816 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 200704 --d_type f32_r --ldd 3136 --stride_d 200704 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 3136 -n 64 -k 64 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 200704 --b_type f32_r --ldb 64 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 3136 --stride_c 200704 --d_type f32_r --ldd 3136 --stride_d 200704 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 2048 -k 512 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 25088 --b_type f32_r --ldb 2048 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 100352 --d_type f32_r --ldd 49 --stride_d 100352 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 49 -n 512 -k 2048 --alpha 1.0 --a_type f32_r --lda 49 --stride_a 100352 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 49 --stride_c 25088 --d_type f32_r --ldd 49 --stride_d 25088 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 128 -k 512 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 401408 --b_type f32_r --ldb 128 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 100352 --d_type f32_r --ldd 784 --stride_d 100352 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA N --transposeB T -m 784 -n 512 -k 128 --alpha 1.0 --a_type f32_r --lda 784 --stride_a 100352 --b_type f32_r --ldb 512 --stride_b 0 --beta 0.0 --c_type f32_r --ldc 784 --stride_c 401408 --d_type f32_r --ldd 784 --stride_d 401408 --batch 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 128 -n 96 -k 1568 --alpha 1.0 --a_type f32_r --lda 1568 --stride_a 200704 --b_type f32_r --ldb 1568 --stride_b 150528 --beta 0.0 --c_type f32_r --ldc 128 --stride_c 12288 --d_type f32_r --ldd 128 --stride_d 12288 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 192 -n 128 -k 1568 --alpha 1.0 --a_type f32_r --lda 1568 --stride_a 301056 --b_type f32_r --ldb 1568 --stride_b 200704 --beta 0.0 --c_type f32_r --ldc 192 --stride_c 24576 --d_type f32_r --ldd 192 --stride_d 24576 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 192 -n 64 -k 6272 --alpha 1.0 --a_type f32_r --lda 6272 --stride_a 1204224 --b_type f32_r --ldb 6272 --stride_b 401408 --beta 0.0 --c_type f32_r --ldc 192 --stride_c 12288 --d_type f32_r --ldd 192 --stride_d 12288 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 192 -n 80 -k 10368 --alpha 1.0 --a_type f32_r --lda 10368 --stride_a 1990656 --b_type f32_r --ldb 10368 --stride_b 829440 --beta 0.0 --c_type f32_r --ldc 192 --stride_c 15360 --d_type f32_r --ldd 192 --stride_d 15360 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 32 -n 32 -k 43808 --alpha 1.0 --a_type f32_r --lda 43808 --stride_a 1401856 --b_type f32_r --ldb 43808 --stride_b 1401856 --beta 0.0 --c_type f32_r --ldc 32 --stride_c 1024 --d_type f32_r --ldd 32 --stride_d 1024 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 64 -n 32 -k 43808 --alpha 1.0 --a_type f32_r --lda 43808 --stride_a 2803712 --b_type f32_r --ldb 43808 --stride_b 1401856 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 2048 --d_type f32_r --ldd 64 --stride_d 2048 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 96 -n 64 -k 2592 --alpha 1.0 --a_type f32_r --lda 2592 --stride_a 248832 --b_type f32_r --ldb 2592 --stride_b 165888 --beta 0.0 --c_type f32_r --ldc 96 --stride_c 6144 --d_type f32_r --ldd 96 --stride_d 6144 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 96 -n 96 -k 2592 --alpha 1.0 --a_type f32_r --lda 2592 --stride_a 248832 --b_type f32_r --ldb 2592 --stride_b 248832 --beta 0.0 --c_type f32_r --ldc 96 --stride_c 9216 --d_type f32_r --ldd 96 --stride_d 9216 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 224 -n 192 -k 2592 --alpha 1.0 --a_type f32_r --lda 2592 --stride_a 580608 --b_type f32_r --ldb 2592 --stride_b 497664 --beta 0.0 --c_type f32_r --ldc 224 --stride_c 43008 --d_type f32_r --ldd 224 --stride_d 43008 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 96 -n 64 -k 10368 --alpha 1.0 --a_type f32_r --lda 10368 --stride_a 995328 --b_type f32_r --ldb 10368 --stride_b 663552 --beta 0.0 --c_type f32_r --ldc 96 --stride_c 6144 --d_type f32_r --ldd 96 --stride_d 6144 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 128 -n 128 -k 3136 --alpha 1.0 --a_type f32_r --lda 3136 --stride_a 401408 --b_type f32_r --ldb 3136 --stride_b 401408 --beta 0.0 --c_type f32_r --ldc 128 --stride_c 16384 --d_type f32_r --ldd 128 --stride_d 16384 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_strided_batched_ex --transposeA T --transposeB N -m 64 -n 64 -k 12544 --alpha 1.0 --a_type f32_r --lda 12544 --stride_a 802816 --b_type f32_r --ldb 12544 --stride_b 802816 --beta 0.0 --c_type f32_r --ldc 64 --stride_c 4096 --d_type f32_r --ldd 64 --stride_d 4096 --batch 36 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1600 -n 192 -k 729 --alpha 1.0 --a_type f32_r --lda 729 --b_type f32_r --ldb 729 --beta 1.0 --c_type f32_r --ldc 1600 --d_type f32_r --ldd 1600 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1728 -n 384 -k 169 --alpha 1.0 --a_type f32_r --lda 169 --b_type f32_r --ldb 169 --beta 1.0 --c_type f32_r --ldc 1728 --d_type f32_r --ldd 1728 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 3456 -n 256 -k 169 --alpha 1.0 --a_type f32_r --lda 169 --b_type f32_r --ldb 169 --beta 1.0 --c_type f32_r --ldc 3456 --d_type f32_r --ldd 3456 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 3456 -n 384 -k 169 --alpha 1.0 --a_type f32_r --lda 169 --b_type f32_r --ldb 169 --beta 1.0 --c_type f32_r --ldc 3456 --d_type f32_r --ldd 3456 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 363 -n 64 -k 3025 --alpha 1.0 --a_type f32_r --lda 3025 --b_type f32_r --ldb 3025 --beta 1.0 --c_type f32_r --ldc 363 --d_type f32_r --ldd 363 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1008 -n 224 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 1008 --d_type f32_r --ldd 1008 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1152 -n 192 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 1152 --d_type f32_r --ldd 1152 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1152 -n 256 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 1152 --d_type f32_r --ldd 1152 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1200 -n 128 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 1200 --d_type f32_r --ldd 1200 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1296 -n 288 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 1296 --d_type f32_r --ldd 1296 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1440 -n 320 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 1440 --d_type f32_r --ldd 1440 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1440 -n 320 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 1440 --d_type f32_r --ldd 1440 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 147 -n 64 -k 12544 --alpha 1.0 --a_type f32_r --lda 12544 --b_type f32_r --ldb 12544 --beta 1.0 --c_type f32_r --ldc 147 --d_type f32_r --ldd 147 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1728 -n 384 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 1728 --d_type f32_r --ldd 1728 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 16 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 32 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 64 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 96 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 128 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 32 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 64 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 400 -n 32 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 400 --d_type f32_r --ldd 400 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 400 -n 48 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 400 --d_type f32_r --ldd 400 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 480 -n 16 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 480 --d_type f32_r --ldd 480 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 480 -n 192 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 480 --d_type f32_r --ldd 480 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 480 -n 64 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 480 --d_type f32_r --ldd 480 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 480 -n 96 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 480 --d_type f32_r --ldd 480 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 112 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 128 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 144 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 160 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 24 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 32 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 64 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 528 -n 128 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 528 --d_type f32_r --ldd 528 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 528 -n 160 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 528 --d_type f32_r --ldd 528 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 528 -n 256 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 528 --d_type f32_r --ldd 528 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 528 -n 32 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 528 --d_type f32_r --ldd 528 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 576 -n 192 -k 3136 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 3136 --beta 1.0 --c_type f32_r --ldc 576 --d_type f32_r --ldd 576 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 600 -n 64 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 600 --d_type f32_r --ldd 600 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 64 -n 64 -k 3136 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 3136 --beta 1.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 800 -n 128 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 800 --d_type f32_r --ldd 800 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 800 -n 128 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 800 --d_type f32_r --ldd 800 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 800 -n 64 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 800 --d_type f32_r --ldd 800 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 800 -n 96 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 800 --d_type f32_r --ldd 800 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 128 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 160 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 192 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 256 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 32 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 384 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 832 -n 48 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 832 --d_type f32_r --ldd 832 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 864 -n 128 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 864 --d_type f32_r --ldd 864 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 864 -n 208 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 864 --d_type f32_r --ldd 864 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1120 -n 160 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1120 --d_type f32_r --ldd 1120 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1120 -n 192 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1120 --d_type f32_r --ldd 1120 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1152 -n 384 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1152 --d_type f32_r --ldd 1152 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1200 -n 64 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 1200 --d_type f32_r --ldd 1200 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1280 -n 192 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1280 --d_type f32_r --ldd 1280 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1280 -n 320 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1280 --d_type f32_r --ldd 1280 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1280 -n 384 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1280 --d_type f32_r --ldd 1280 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1280 -n 448 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1280 --d_type f32_r --ldd 1280 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1344 -n 192 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1344 --d_type f32_r --ldd 1344 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1728 -n 192 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1728 --d_type f32_r --ldd 1728 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1728 -n 320 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1728 --d_type f32_r --ldd 1728 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 32 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 48 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 192 -n 64 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 192 --d_type f32_r --ldd 192 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2048 -n 192 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2048 -n 320 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2048 -n 384 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2048 -n 448 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 48 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 64 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2592 -n 384 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 2592 --d_type f32_r --ldd 2592 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 27 -n 32 -k 22201 --alpha 1.0 --a_type f32_r --lda 22201 --b_type f32_r --ldb 22201 --beta 1.0 --c_type f32_r --ldc 27 --d_type f32_r --ldd 27 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 288 -n 32 -k 21609 --alpha 1.0 --a_type f32_r --lda 21609 --b_type f32_r --ldb 21609 --beta 1.0 --c_type f32_r --ldc 288 --d_type f32_r --ldd 288 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 288 -n 48 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 288 --d_type f32_r --ldd 288 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 288 -n 64 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 288 --d_type f32_r --ldd 288 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 288 -n 64 -k 21609 --alpha 1.0 --a_type f32_r --lda 21609 --b_type f32_r --ldb 21609 --beta 1.0 --c_type f32_r --ldc 288 --d_type f32_r --ldd 288 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 4032 -n 384 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 4032 --d_type f32_r --ldd 4032 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 576 -n 96 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 576 --d_type f32_r --ldd 576 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 64 -n 80 -k 5329 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 5329 --beta 1.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 720 -n 192 -k 5041 --alpha 1.0 --a_type f32_r --lda 5041 --b_type f32_r --ldb 5041 --beta 1.0 --c_type f32_r --ldc 720 --d_type f32_r --ldd 720 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 768 -n 128 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 768 --d_type f32_r --ldd 768 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 768 -n 160 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 768 --d_type f32_r --ldd 768 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 768 -n 192 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 768 --d_type f32_r --ldd 768 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 864 -n 96 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 864 --d_type f32_r --ldd 864 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 864 -n 96 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 864 --d_type f32_r --ldd 864 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 896 -n 128 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 896 --d_type f32_r --ldd 896 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 896 -n 192 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 896 --d_type f32_r --ldd 896 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 128 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 192 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 256 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 384 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1152 -n 256 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1152 --d_type f32_r --ldd 1152 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1152 -n 448 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1152 --d_type f32_r --ldd 1152 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1344 -n 224 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1344 --d_type f32_r --ldd 1344 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1344 -n 512 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1344 --d_type f32_r --ldd 1344 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1536 -n 256 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1536 --d_type f32_r --ldd 1536 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1536 -n 384 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 1536 --d_type f32_r --ldd 1536 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1568 -n 224 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1568 -n 256 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1568 --d_type f32_r --ldd 1568 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 160 -n 64 -k 5329 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 5329 --beta 1.0 --c_type f32_r --ldc 160 --d_type f32_r --ldd 160 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1728 -n 192 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 1728 --d_type f32_r --ldd 1728 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1728 -n 224 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 1728 --d_type f32_r --ldd 1728 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1792 -n 256 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1792 --d_type f32_r --ldd 1792 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1792 -n 320 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 1792 --d_type f32_r --ldd 1792 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2016 -n 256 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 2016 --d_type f32_r --ldd 2016 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2880 -n 320 -k 64 --alpha 1.0 --a_type f32_r --lda 64 --b_type f32_r --ldb 64 --beta 1.0 --c_type f32_r --ldc 2880 --d_type f32_r --ldd 2880 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 3456 -n 384 -k 289 --alpha 1.0 --a_type f32_r --lda 289 --b_type f32_r --ldb 289 --beta 1.0 --c_type f32_r --ldc 3456 --d_type f32_r --ldd 3456 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 384 -n 192 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 384 --d_type f32_r --ldd 384 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 384 -n 64 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 384 --d_type f32_r --ldd 384 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 384 -n 96 -k 1225 --alpha 1.0 --a_type f32_r --lda 1225 --b_type f32_r --ldb 1225 --beta 1.0 --c_type f32_r --ldc 384 --d_type f32_r --ldd 384 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 448 -n 64 -k 5329 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 5329 --beta 1.0 --c_type f32_r --ldc 448 --d_type f32_r --ldd 448 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 576 -n 96 -k 5041 --alpha 1.0 --a_type f32_r --lda 5041 --b_type f32_r --ldb 5041 --beta 1.0 --c_type f32_r --ldc 576 --d_type f32_r --ldd 576 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 576 -n 96 -k 5329 --alpha 1.0 --a_type f32_r --lda 5329 --b_type f32_r --ldb 5329 --beta 1.0 --c_type f32_r --ldc 576 --d_type f32_r --ldd 576 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 2048 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 256 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1024 -n 512 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 1024 --d_type f32_r --ldd 1024 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 1152 -n 128 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 1152 --d_type f32_r --ldd 1152 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 128 -n 512 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 128 --d_type f32_r --ldd 128 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2048 -n 512 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 2048 --d_type f32_r --ldd 2048 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 2304 -n 256 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 2304 --d_type f32_r --ldd 2304 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 1024 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 512 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 256 -n 64 -k 3136 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 3136 --beta 1.0 --c_type f32_r --ldc 256 --d_type f32_r --ldd 256 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 4608 -n 512 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 4608 --d_type f32_r --ldd 4608 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 1024 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 128 -k 784 --alpha 1.0 --a_type f32_r --lda 784 --b_type f32_r --ldb 784 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 2048 -k 49 --alpha 1.0 --a_type f32_r --lda 49 --b_type f32_r --ldb 49 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 512 -n 256 -k 196 --alpha 1.0 --a_type f32_r --lda 196 --b_type f32_r --ldb 196 --beta 1.0 --c_type f32_r --ldc 512 --d_type f32_r --ldd 512 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 576 -n 64 -k 3136 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 3136 --beta 1.0 --c_type f32_r --ldc 576 --d_type f32_r --ldd 576 --compute_type f32_r --algo 0
./rocblas-bench -f gemm_ex --transposeA T --transposeB N -m 64 -n 256 -k 3136 --alpha 1.0 --a_type f32_r --lda 3136 --b_type f32_r --ldb 3136 --beta 1.0 --c_type f32_r --ldc 64 --d_type f32_r --ldd 64 --compute_type f32_r --algo 0
